当前位置:100EC>产业数字化>阿里宣布Qwen3大模型更新 性能超Kimi-K2 DeepSeek-V3等开源模型
阿里宣布Qwen3大模型更新 性能超Kimi-K2 DeepSeek-V3等开源模型
网经社发布时间:2025年07月22日 11:24:07

(网经社讯)7月22日,阿里巴巴通义千问今日宣布更新了旗舰版Qwen3模型,推出 Qwen3-235B-A22B-FP8 非思考模式(Non-thinking)的更新版本,命名为Qwen3-235B-A22B-Instruct-2507-FP8。

屏幕截图 2025-07-22 112819.png

网经社云计算台(CC.100EC.CN)了解,新的Qwen3模型,通用能力明显提升,包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等方面,在GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent能力)等众多测评中表现出色,超过Kimi-K2、DeepSeek-V3等顶级开源模型以及Claude-Opus4-Non-thinking等领先闭源模型(详见图2)。

此外,本次更新的Qwen3模型,还增强了以下关键性能:

1.在多语言的长尾知识覆盖方面,模型取得显著进步。

2.在主观及开放性任务中,模型显著增强了对用户偏好的契合能力,能够提供更有用的回复,生成更高质量的文本。

3.长文本提升到256K,上下文理解能力进一步增强。

目前,Qwen3新模型已在魔搭社区和HuggingFace上开源更新。

在技术特性方面,Qwen3融合了快速响应和深度思考两种模式。面对简单问题时,模型能够快速给出答案;遇到复杂任务时,则会启动多步骤推理机制。这种混合推理设计既保证了响应效率,又确保了复杂问题的处理质量。

模型在多项基准测试中表现突出。在数学推理能力评测AIME25中获得81.5分的成绩,在代码能力测试LiveCodeBench中突破70分关口。与此同时,在人类偏好对齐评估ArenaHard中,该模型以95.6分的成绩超越了多个国际知名模型。

浙江网经社信息科技公司拥有18年历史,作为中国领先的数字经济新媒体、服务商,提供“媒体+智库”、“会员+孵化”服务;(1)面向电商平台、头部服务商等PR条线提供媒体传播服务;(2)面向各类企事业单位、政府部门、培训机构、电商平台等提供智库服务;(3)面向各类电商渠道方、品牌方、商家、供应链公司等提供“千电万商”生态圈服务;(4)面向各类初创公司提供创业孵化器服务。

网经社“电数宝”电商大数据库(DATA.100EC.CN,免费注册体验全库)基于电商行业18年沉淀,包含100+上市公司、新三板公司数据,150+独角兽、200+千里马公司数据,4000+起投融资数据以及10万+互联网APP数据,全面覆盖“头部+腰部+长尾”电商,旨在通过数据可视化形式帮助了解电商行业,挖掘行业市场潜力,助力企业决策,做电商人研究、决策的“好参谋”。

【投诉曝光】 更多>

【版权声明】秉承互联网开放、包容的精神,网经社欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源网经社;同时,我们倡导尊重与保护知识产权,如发现本站文章存在版权问题,烦请将版权疑问、授权证明、版权证明、联系方式等,发邮件至NEWS@netsun.com,我们将第一时间核实、处理。

        平台名称
        平台回复率
        回复时效性
        用户满意度
        微信公众号
        微信二维码 打开微信“扫一扫”
        微信小程序
        小程序二维码 打开微信“扫一扫”